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摘要 : 【 目的 ] 构建 人 才 知 识 结构 的 自动 抽取 方法 。[ 方法 】 基 于 网 络 信 息 采 集 技术 、 网 页 分 析 以 及 文本 分 词 、 
语义 网 相关 技术 , 构建 基于 网 络 环境 的 人 才 知 识 结构 的 自动 抽取 系统 。[ 结果 】 实 验 验 证 了 该 系统 的 有 用 性 ， 系 
统 识别 课程 的 整体 准确 率 在 95% 以 上 , 对 半 结 构 化 文件 , 召回 率 在 95% 以 上 ; 对 非 结构 化 文件 ， 部 分 文件 召回 率 
低 于 90%。[ 局 限 ] 课程 识别 的 召回 率 受 到 词典 库 内 容 的 制约 。[ 结论 】 本 方法 能 为 人 才 知 识 结构 研究 提供 有 用 
的 工具 , 符合 构建 人 才 知 识 结 构 的 基本 要 求 。 
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1 引言 出 人 才 知 识 库 构 建 可 利用 的 数据 , 输出 结果 将 考虑 采 

用 语义 网 、 领 域 本 体 的 相关 技术 和 格式 规范 以 便于 

网 络 化 创新 服务 外 包 ， 指 企业 通过 互联 网 利用 外 ”对 人 才 知 识 结构 信息 的 灵活 利用 。 

部 人 力 资 源 完 成 创新 任务 的 行为 由 。 为 实现 对 创新 服 构建 完备 的 人 才 知 识 库 是 完成 人 才能 力 和 外 包 匹 
务 供需 的 迅速 、 精 确 匹配 ,， 即 人 才能 力 和 企业 任务 的 。 ” 配 的 基础 ,供给 方 只 需 提供 人 才 的 学 校 、 专 业 、 入 学 
有 效 匹配 , 正确 描述 人 才 胜 任 力 至 关 重 要 。1973 年 美 。” 年 份 等 信息 ,系统 即 可 从 后 台 迅 速 地 获取 到 人 才 的 结 
国 著名 心理 学 家 McClelland 首次 提出 人 才 胜 任 力 的 概 。”” 构 化 的 知识 结构 信息 , 包括 修 读 课程 .课程 内 容 等 , 并 
念 中 ,在 此 基础 上 Mirable 对 胜任 力 模型 进一步 总 结 ， ”可 对 不 同 的 人 才 资 源 进行 对 比分 析 ， 人才 知 识 结构 信 


提出 了 KSAO 模型 中 。 其 中 K 表示 知识 ,指针 对 特定 息 自动 抽取 系统 的 功能 如 图 1 所 示 : 
岗位 和 专业 领域 的 要 求 具 备 的 知识 ， 如 岗位 知识 、 专 知识 结 
业 知识 , 本 研究 将 主要 围绕 人 才 的 专业 知识 结构 的 进 构 信息 ” | 
行 自 动 抽取 。 沪 | 知识 结 | 人 才 雪 门 
ee 、 本 0 构 信息 | 知识 库 系统 
当前 人 才 知 识 结构 信息 获取 方式 仍然 限于 人 工 录 
人 方式 ,难以 满足 短 时 间 获 取 大 量 数据 的 需求 ， 且 成 于 和 届时 


本 相对 较 高 , 发展 一 套 可 以 自动 化 进行 信息 采集 、 分 
析 、 抽 取 的 方法 很 有 必要 。 

本 研究 的 目的 是 构建 一 个 可 以 从 网 络 资源 中 自动 one | 
抽取 人 才 知 识 结构 信息 的 方法 ,利用 丰富 的 网 络 资源 
进行 人 才 的 知识 结构 信息 的 采集 、 分 析 , 并 自动 抽取 图 1 人 才 知识 结构 信息 自动 抽取 系统 示意 图 


通讯 作者 : 张 晓 燕 ，ORCID: 0000-0003-3189-8514, E-mail: zzlveofer@hotmail.com。 
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2 ”人才 知 识 结构 自动 抽取 背景 分 析 


当前 我 国 大 部 分 的 高 校 在 其 官方 网 站 ,教务 网 站 等 
渠道 发 布 了 甚 学院、 专业、 课程 等 信息 , 为 本 研究 提供 
了 丰富 的 信息 来 源 , 这 将 作为 笔者 主要 的 分 析 对 象 。 
2.1 典型 样本 分 析 

在 对 比 互联 网 来 源 的 一 些 典 型 样本 后 , 笔者 总 结 
出 这 些 样本 的 关键 特征 : 

(1) 信息 量 极 大 : 据 预 估 , 合计 开设 课程 的 数量 
级 在 107-10? 之 间 , 再 考虑 到 人 才 的 修 读 年 份 因 素 ， 人 
工整 理 难度 极 高 。 

(2) 变化 频繁 : 在 办 学 实践 中 , 高 校 每 年 对 院 系 、 
专业 以 及 培养 方案 都 会 进行 不 同 程度 的 调整 ,无 疑 为 
言 息 整理 带 来 更 多 难题 。 

(3) 文件 类 型 多 样 : 各 个 高 校 在 网 站 上 发 布 的 培 
养 方 案 信 息 的 形式 多 种 多 样 , 有 HIML 、PDF 、Word、 
Excel 等 多 种 格式 ,系统 的 设计 应 当 充分 考虑 多 种 文 
件 格 式 的 兼容 。 

(4) 半 结 构 化 / 非 结 构 化 特征 显著 : 各 种 文件 内 部 
的 学 院 、 专 业 、 课 程 等 信息 的 组 织 结构 样式 繁多 , 有 
以 表格 形式 ,， 如 图 2 所 示 ; 也 有 纯 文 本 形式 的 描述 ， 如 
图 3 所 示 。 

综合 来 看 , 信息 的 组 织 呈 现 出 半 结 构 化 / 非 结 构 化 
村 征 ， 系 统 的 设计 应 当 针 对 不 同 结构 特征 的 文件 内 容 
区 分 处 理 , 以 提高 其 处 理 信息 的 准确 性 。 


必修 : 27 学 分 。 

课程 号 。 课程 名 。 周 学 时 :| 学 分 - | 开课 学 期 ， |， 
00331751。 微 积 分 〈 一 ) 。 65 4 秋季 (1) 。 |。 
00331770。 “| 线性 代数 与 几何 。 5 4 秋季 (1) 。 |。 
00331752。 微 积分 (二) 。 62 4 春季 (2) 。 |。 
00331860。 4 3。 秋季 (3) 。 |。 
00331880。 3。 3。 秋季 (3) 。 |。 
00330700。 4 3。 秋季 (3》 。 |。 
00331900。 3° 3。 秋季 (5) 。 |， 
00330050。 5 3。 春季 (6) 。 |。 
9 共 。 27。 学 分 - 


图 2 信息 组 织 示例 1: 半 结 构 化 类 型 


本 专业 学 生 须 按 培养 计划 要 求 修 读 各 类 课程 ， 总 学 分 达到 220 学 分 ， 方 可 毕业 。 本 专业 所 
授 学 位 为 建筑 学 工学 十 。 
建筑 学 专业 毕业 生 修 注 兴 下 专业 类 课程 , 在 总 学 分 满足 要 求 的 情况 下 , 可 取得 建筑 学 工学 
士 学 位 : 
第 并 学 期 : 设计 概论 、 设 计 基础 
第 吕 学 期 : 建筑 概论 、 建 筑 设计 大 
第 3 建筑 生成 讼 ; 
第 04 学 期 : 建 E 
第 05 学 期 : 公共 建筑 设计 原理 (1)- 人 文 环境 、 公 共 建 筑 设计 原理 (2)- 自 然 环境 
公共 建筑 设计 《 人文 环境 与 自然 环境 》 
第 06 学 期 : 公共 建筑 设计 原理 (3)- 建 筑 群体 、 居 住 建筑 设计 原理 
建筑 群体 设计 与 住 区 规划 设计 
第 呆 学 期 : 高 居 建 筑 设计 原理 、 城 市 设计 原理 


图 3 信息 组 织 示 例 2: 非 结 构 化 类 型 


ChinaXiv 合 作 期 刊 


总 第 269 期 2016 年 第 4 期 


(5) 内 容 差异 性 大 : 出 于 办 学 历史 和 特色 原因 ， 
各 高 校 的 专业 课程 设置 差异 巨大 。 以 管理 信息 系统 专 
业 为 例 , 各 高 校 的 课程 设置 差异 巨大 外 且 有 的 高 校 
归属 于 计算 机 学 院 ， 有 的 归属 于 管理 学 院 。 

系统 的 设计 应 当 充分 考虑 这 种 差异 性 ， 避 免 出 现 
格式 兼容 上 的 问题 。 

2.2 ”系统 设计 要 求 与 技术 难点 分 析 

(1) 尽 可 能 最 小 化 人 工 干预 ; 信息 量 大 且 变 化 频 
繁 的 特征 决定 人 工 录入 、 整 理 的 成 本 极 高 ,因此 信息 
的 获取 方式 和 知识 结构 的 构建 过 程 一 定 要 满足 自动 化 
的 要 求 ， 尽 可 能 减少 人 工 干 预 。 

网 络 信息 采集 技术 可 满足 上 述 需求 , 但 是 从 头 构 
建 一 个 网 络 爬 虫 系统 的 工作 量 和 复杂 度 极 高 ， 现 有 框 
架 又 难以 满足 个 性 化 需求 , 应当 充 分 考虑 利用 开源 社 
区 提供 的 成 熟 框架 作为 开发 基础 。 

(2) 兼容 性 要 求 : 文件 类 型 的 多 样 与 内 容 的 半 结 构 
化 / 非 结 构 化 特征 要 求 系统 对 不 同文 件 、 结构 类 型 兼容 。 

这 对 系统 设计 实现 过 程 中 的 模块 化 与 复 用 性 提出 
较 高 的 要 求 , 应 有 前 瞻 的 规划 ,采取 扩展 性 良好 的 设 
计 模 式 。 

(3) 数据 格式 的 扩展 性 要 求 : 不 同 高 校 的 专业 课 
程 设置 内 容 的 差异 性 对 系统 数据 格式 的 设计 提出 要 
求 , 应当 充 分 考虑 知识 结构 构建 过 程 中 数据 存储 、 转 
化 的 灵活 性 。 

一 般 的 关系 型 数据 库 所 提供 的 存储 方式 较为 单 
一 , 扩展 性 受 限 , 应 当 参 照 当 今 Web 数据 广泛 应 用 的 
XML 等 数据 格式 。 

(4) 数据 精度 的 要 求 : 信息 的 精度 包含 信息 获取 、 
抽取 的 准确 度 ,， 是 保证 人 才 知 识 库 有 用 性 的 关键 。 

自动 化 的 网 络 信息 采集 程序 可 迅速 、 批 量 地 获取 
到 大 量 网 络 资源 , 但 这 种 方式 难免 带 来 有 效 信息 纯度 
不 高 的 问题 , 在 系统 分 析 设计 的 过 程 中 , 应 当 考虑 集 
中 数据 源头 、 构 建 领 域 词 典 排除 无 用 信息 干扰 、 中 间 
数据 筛 查 等 手段 来 抵消 其 不 利 影响 。 

2.3 ”输出 结果 要 求 

基于 本 研究 的 背景 , 为 了 实现 最 终 资 源 后 续 利用 
的 智能 性 与 灵活 性 , 输出 结果 要 能 够 容易 地 被 计算 机 
读 取 并 理解 ,具有 一 定 的 语义 特征 及 本 体 实现 。 

本 体 构建 的 过 程 包含 实体 (Entity)、 关 系 (object- 
Property) 的 分 析 ， 对 所 涉及 的 实体 关系 进行 初步 分 析 。 
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(1) 主要 实体 分 析 

研究 涉及 的 实体 有 大 学 、 院 系 、 专 业 、 课 程 等 4 
种 ， 如 下 : 

大 学 实体 : 一 所 大 学 由 很 多 院 系 组 成 ， 大 学 本 身 具 有 
校 名 、 编 号 、 介 绍 等 属性 ; 

@@ 院 系 实体 : 一 个 院 系 是 唯一 地 属于 一 个 大 学 , 院 系 下 
开设 有 很 多 专业 。 院 系 本 身 有 院 系 概况 的 属性 ; 

图 专业 实体 : 一 个 专业 被 开设 在 某 个 院 系 下 (不 是 说 一 
定 属于 某 个 院 系 )， 开 设 很 多 课程 ， 包 括 必 修 、 选 修 课 ， 其 本 
身 有 概况 、 介 绍 等 属性 ; 

@ 课 程 实体 : 一 个 课程 被 开设 在 某 个 专业 的 培养 计划 
中 ,也 可 能 开设 在 其 他 专业 中 。 课程 本 身 有 内 容 简 介 属 性 。 

(2) 主要 关系 分 析 

实体 间 可 能 存在 开设 、 被 开设 、 隶 属 、 拥 有 等 关 
系 。 具 体 描述 如 下 : 

(Dopens 关系 : 开设 关系 ,可 应 用 于 大 学 对 院 系 、 院 系 对 专 
业 、 专 业 对 课程 , 表明 开设 、 拥 有 的 关系 ,但 不 代表 唯一 拥有 ; 

(Ois opend by 关系 : 被 开设 关系 ,是 一 种 从 属 关系 ( 例 
如 一 门 课程 可 属于 多 个 专业 ), 但 不 代表 唯一 从 属 关 系 ， 是 
opens 关系 的 递 , 应 用 于 专业 对 院 系 , 课程 对 专业 的 关系 ; 

(8)associates to 关系 : 唯一 的 从 属 关 系 , 应 用 于 院 系 对 
大 学 的 关系 (不 同 大 学 相同 名 称 的 院 系 视 为 不 同 的 院 系 ); 

(Qopens as required 和 opens as optional 关系 : 必修 开 
设 和 选修 开设 关系 , 这 是 继承 自 opens 的 关系 , 应 用 于 专业 
对 课程 的 关系 ， 区 分 这 门 课程 在 本 专业 中 属于 必修 课 还 是 
选修 课 。 

(3) 概念 实体 和 属性 关系 图 

概念 实体 和 属性 关系 如 图 4 所 示 : 


> 
大 学 简介 

opens associates to 
院 系 概 讽 < 一 院 系 > 


opens 
is_opened by opens 


| 
is_opened by 
图 4 概念 实体 关系 图 

3 系统 分 析 与 设计 
3.1 系统 架构 

从 数据 处 理 的 角度 出 发 , 并 结合 前 文 要 求 ,逐步 
分 析 以 形成 对 系统 的 整体 架构 : 

(1) 信息 获取 : 采取 网 络 爬 虫 程序 从 互联 网 上 自 
动 获取 到 大 量 人 才 知 识 结构 信息 原始 数据 。 
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(2) 初步 转化 : 采用 文本 解析 程序 对 类 型 各 异 的 
原始 数据 进行 初步 转化 , 得 到 对 应 的 文本 数据 。 

(3) 知识 结构 抽取 : 从 不 同 结构 类 型 的 文本 数据 
中 进行 学 院 、 专 业 、 课 程 实体 识别 , 构建 出 相应 的 内 
存 数据 。 

(4) 数据 转 储 : 为 了 方便 数据 的 后 续 利 用 , 将 内 
存 数据 持久 化 为 扩展 性 强 的 中 间 数 据 。 

(5) 语义 数据 构建 : 以 中 间 数 据 为 基础 , 采取 本 
体 构建 程序 得 到 具有 语义 特征 的 数据 ,这些 数据 可 
补充 词典 库 内 容 ， 提 升 系统 对 信息 利用 的 完善 程度 。 

综 上 , 数据 经 历 了 原始 数据 、 文 本 数据 、 内 存 数 
据 、 中 间 数 据 、 语 义 数据 的 转化 流程 ,如 图 5 所 示 : 


图 5 数据 格式 转化 
由 此 得 出 系统 的 整体 架构 如 图 6 所 示 : 


原始 数据 文本 解析 器 


内 存 对 象 e 一 | 文本 分 析 程 序 [文本 数据 


本 体 构建 程序 


网 络 怜 4 
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图 6 系统 设计 图 


3.2 网络 讨 虫 程序 

网 络 资源 的 遍历 一 般 有 广度 优先 算法 和 深度 优先 
算法 , 笔者 采用 广度 优先 算法 , 一 般 来 说 越 有 价值 的 
专业 课程 信息 距离 数据 源头 越 近 , 也 越 有 价值 。 

除了 选择 适当 的 搜索 算法 外 ,还 应 当 遵循 适当 的 
URL 和 文件 过 滤 规 则 ,以 提高 系统 的 抓 取 效率 : 

(1) URL 过 滤 : 因为 在 本 文中 , 抓 取信 息 来 源 于 国 
内 高 校 官方 网 站 ,对 于 不 含 “edu” 的 网 页 将 被 过 滤 而 不 
进行 抓 取 ; 

(2) 文件 过 滤 : 对 于 HTML 网 页 , 程序 将 设 定 一 
系列 的 关键 词 集合 , 读 取 其 文本 信息 与 其 进行 匹配 ， 
不 含 任何 关键 词 集合 的 HTML 网 页 将 不 进行 抓 取 , 关 
键 词 集 合 包 含 “ 专 业 ”、“ 学 院 ”、“ 课 程 ”等 。 


3.3 ”文件 解析 程序 

鉴于 原始 数据 的 多 样 性 , HTML、PDF、Office 类 
型 (Word 、Excel) 等 文件 难以 被 直接 利用 ， 因此 有 必要 
通过 一 定 的 技术 手段 进行 解析 , 将 各 类 原始 文件 统一 
转化 为 容易 利用 的 文本 数据 。 文 件 解 析 器 程序 分 别 调 
用 不 同 的 文件 解析 接口 , 根据 文件 类 型 进行 区 别处 理 ， 
流程 如 图 7 所 示 : 


PDF 文件 一 | 入 
| 坚 术 接 
HTML 文 件 HTML 文 件 
[| 一 | 解析 接口 
Offi - Office 文 件 
ome | — 


图 7 文件 解析 程序 


3.4 ”文本 分 析 与 转 储 程序 

文本 分 析 读 取 文 件 解 析 程 序 返 回 的 文本 数据 ， 对 
文本 内 容 进 行 分 析 后 得 到 内 存 对 象 。 文 本 分 析 流 程 如 
图 8 所 示 : 


内 存 对 象 文本 分 析 [< 吉 害 一 ( 文本 数据 


不 
领域 数据 


图 8 文本 分 析 程 序 


对 半 结 构 化 的 文本 内 容 , 不 需要 读 取 领域 词典 即 可 
得 到 层次 分 明 的 专业 课程 信息 。 程 序 读 取 文 本 数据 中 的 
表格 数据 , 逐次 读 取 表格 内 容 , 并 根据 其 对 应 表 头 内 容 
将 专业 、 课 程 信息 映射 到 内 存 对 象 中 , 例如 从 培养 方案 
表格 中 将 课程 名 称 、 学 分 、 学 时 的 情况 映射 到 一 个 Course 
对 象 , 对 应 其 name、credit、period 属性 (可 以 为 空 )。 

而 对 于 非 结 构 化 文本 ,内 容 相 对 散乱 无 序 , 分 析 
的 过 程 更 为 复杂 ,要 依据 一 定 的 领域 词典 匹配 。 程 序 
将 读 取 所 有 文本 内 容 信 息 , 依据 系统 的 领域 词典 中 的 
专业 、 课 程 词汇 进行 分 词 ， 对 于 课程 实体 ,将 在 实体 所 
属 语句 内 搜索 课程 属性 关键 词 (学 分 、 学 时 、 介 绍 等 )， 
定位 属性 内 容 ， 映射 到 Course 对 象 。 将 专业 课程 的 内 
存 对 象 数据 转 储 为 中 间 数 据 。 
3.5 本体 构建 程序 

利用 返回 的 中 间 数 据 , 将 它们 按照 最 终 对 信息 结 


构 的 需求 构建 出 语义 本 体 数据 ， 以 增强 信息 被 计算 机 
读 取 、 理 解 的 强度 ,适应 可 能 出 现 的 信息 的 灵活 利用 
要 求 。 本 体 构 建 程序 如 图 9 所 示 : 


中 间 数 据 
语义 数据 本 体 构建 
程序 


图 9 本 体 构 建 程序 
4 数据 结构 设计 


4.1 ” 谎 虫 数据 库 设计 

把 虫 数据 库 的 备 选 的 方案 包括 关系 型 数据 库 例 如 
Oracle 、SQL Server 等 ,文件 型 数据 结构 XML、RDF 
等 ， 以 及 艇 人 式 数据 库 Berkeley DB 等 。 

考虑 访问 效率 、 安 全 性 、 海 量 数据 负载 等 要 求 ， 
笔者 采取 Berkeley DB 作为 息 虫 数据 库 。 

Berkeley DB 采取 关键 字 / 数 据 (Key/Value) 的 形式 
进行 数据 库 管理 , 通过 相关 API, 提供 关键 字 即 可 获 
取 到 对 应 数据 ,访问 效率 很 高 ， 其 底层 可 以 理解 为 存 
放大 量 数据 的 HashMap, 访问 复 杂 度 只 有 0O(1), 性 能 
要 明显 优 于 关系 型 、 文 件 型 数据 库 。Berkeley DB 的 数 
据 结构 如 下 : 

(1) BdbFrontier: 这 个 类 是 Heritrix 中 使 用 
Berkeley DB 结构 的 链接 制造 工厂 ， 用 来 验证 某 个 正 
等 待 进入 队列 的 对 和 象 是 否 已 被 抓 取 过 。 

(2) BdbMultipleWorkQueues: 一 组 链接 对 象 的 队 
列 , 不 同 的 队列 具有 不 同 的 Key 值 ， 即 Key 和 链接 队 
列 形成 一 个 个 “Key/Value” 对 , 作为 Berkeley DB 中 的 
一 条 记录 。 如 表 1 所 示 : 

表 1 BdbMulipleWorkQueues 结构 示意 


中 间 信 息 
解析 程序 


键 值 
Keyl Queuel {URI1, URI2, URI3, …} 
Key2 {°°} 
Key3 人 


(3) BdbWorkQueue: 基于 Berkeley DB 的 链接 队 
列 , 创建 每 个 BdbWorkQueue 都 会 赋予 一 个 键 值 。 

(4) BdbUriUniqFilter: 过 滤 絮 ,被 BdbFrontier 调 
用 ,内 部 包含 被 抓 取 过 链接 的 Berkeley DB 数据 库 D。 
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4.2 中间 数据 格式 设计 

可 参考 格式 有 XML 、SQL Server、MySQL 等 。 
考虑 向 语义 数据 转化 的 难度 以 及 数据 迁移 的 方便 后 ， 
决定 选取 XML 格式 。XML 文件 被 广泛 认为 是 语义 网 
实现 的 基础 层 , 语法 标准 统一 , 可 扩展 性 明显 优 于 关 
系 型 数据 库 , 笔 者 给 出 XML 文件 规范 format.xsd 结构 
如 图 10 所 示 : 


attributes 


图 10 中 间 数 据 格式 

4.3 语义 数据 格式 设计 

语义 数据 格式 设计 的 备 选 方案 有 OWL、XML、 
RDF 等 , 考虑 表达 能 力 的 需求 ， 本 研究 优先 考虑 采用 
OWL 的 格式 。OWL(Web 本 体 语言 ) 是 和 语义 Web 相 
关 的 W3C 推荐 标准 栈 的 一 部 分 , 使 用 基于 XML 的 
RDF 语法 外， 表达 能 力 要 远 强 于 XML 和 RDF。 语义 
数据 格式 设计 参照 图 4。 
5 系统 实现 与 测试 
5.1 ”编程 语言 与 开发 环境 

本 系统 采用 Java 语言 为 程序 开发 语言 ， 与 CC++ 
相 比 , Java 彻底 面向 对 象 , 设计 模式 运用 方便 ， 且 由 于 
跨 平 台 特 性 ,可 直接 调用 的 成 熟 开源 框架 很 多 。 系 统 
采用 Eclipse 作为 开发 环境 , 与 其 他 开发 工具 如 
JBuilder、IDEA 相 比 ，Eclipse 具备 开放 、 自 由 、 可 扩 
展 插件 众多 等 优势 ， 能 满足 快速 开发 的 需求 。 
5.2 ”网 络 疏 虫 程序 与 运行 效果 


者 决定 选取 开源 的 爬虫 框架 作为 开发 基础 ， 有 
Scarpy、Cola 、Heritrix 、Beautiful Soup 等 可 供 选 取 , 在 
充分 考虑 编程 语言 、 界 面 友好 性 、 扩 展 性 因素 后 , 最 
终 决 定 采 用 Heritrix 框架 作为 基本 框架 。 


隐隐 现代 图 书 情报 技术 
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Heritrix 是 一 个 始 于 2003 年 的 开源 、 可 扩展 的 网 
络 疏 虫 项 目 ， 基 于 Java 平台 开发 "1, 与 Scrapy、Cola 
相 比 ,其 配置 功能 更 为 强大 ,具有 更 好 的 扩展 性 ， 而 
且 它 可 以 通过 Web 界面 操作 ,友好 性 更 强 , 其 基本 框 
架 如 图 11 所 示 : 


Web 可 管理 控制 台 ml 抓 取 顺 序 


next(CrawlURL) 
预 取 链 
如 
服务 器 缓存 [3 全 | 全 


CrawlController 


Frontier 


URL 
工作 队列 | 


抽取 链 
范围 
已 经 包含 的 
URL 
wschedule(URL) 后 处 理 链 
ss 口 
finished(CrawlURL) 


图 11 Heritrix 基本 框架 


其 中 CrawlController 类 (控制 器 ) 协 调 各 模块 的 运 
行 ， 是 本 框架 的 核心 , CrawlController 作为 息 虫 系统 的 
中 枢 神 经 , 决定 候 虫 进程 的 开始 、 结 束 。 其 核心 有 三 
大 部 件 : 范围 部 件 、 边 界 (Fontier) 部 件 、 处 理 絮 链 。 

(1) 范围 部 件 决定 下 一 个 人 列 的 URL 是 什么 , 可 
自 定义 干涉 ; 

(2) 边界 部 件 进行 边界 条 件 的 验证 , 对 未 访问 队 
列 中 的 URL 进行 验证 ， 上 文 所 述 的 URL 规则 即 在 此 
部 分 设 定 ; 

(3) 处 理 器 链 中 是 正在 同时 处 理 的 URL 队列 , 处 
理 结果 会 传递 给 边界 条 件 。 
疏 虫 任务 的 创建 界面 如 图 12 所 示 。 这 是 一 个 以 上 
海 交通 大 学 本 科教 学 信息 服务 网 为 源头 的 任务 ,数据 
源头 如 Seeds 中 所 示 , 再 对 Modules、Setting 模块 的 参 
数 进 行 设 定 , 任务 即 创建 成 功 。 


ame of new job: ltest_course 


Description: Default Profile 


Secds: Fill in seed URIs below, one per line. Coment lines begin with '# 
http://electsys. sjtu. edu. crv edu/pyjh/pyjhquery2009. aspx? 
zydm=080703&mc=%e5%9c%9f%e6W9c%a8%e5%bT7%a5%e7%a8%Sb&mj=2013 
# 土 木工 程 培养 计划 


[Modules | [Submodules | | Settings | | Overides | | Submitjob 


图 12 爬 束 任务 创建 
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5.3 ”文件 解析 程序 与 运行 效果 

文件 解析 器 通过 分 别 调用 不 同 的 接口 ,， 将 文件 
映射 到 内 存 再 从 中 读 取 出 要 利用 的 字符 串 ， 输 出 文 
本 文件 。 以 PDF 文件 的 解析 为 例 阐述 解析 程序 的 
搭建 : 采用 PDFBox API 进行 开发 。 它 采用 面向 对 象 
的 方式 获取 PDF 文档 , 不 同 于 文本 格式 的 文件 流 , 将 
一 个 PDF 文件 视 为 一 系列 基本 对 象 的 组 合 , 包含 数 
组 、 数 字 、 字 符 串 、 词 典 等 结构 ,非常 适合 本 研究 的 
开发 框架 。 

待 转 化 的 PDF 测试 文件 ， 如 图 13 所 示 。 这 是 某 
所 高 校 建 筑 学 专业 的 培养 计划 文件 。 转 化 所 得 到 的 文 
本 文档 如 图 14 所 示 。 


?9 加 丁丁 | 苗 加 | 了 FRI 国画 厦 : 已 


pdf 


X 
2 


文化 素质 教育 课程 体系 包括 文化 素质 教育 核心 课 、 新 生 研 讨 课 、 文 化 素质 教 
素质 教育 课 ， 除 文化 素质 教育 讲座 和 新 生 研 讨 课外 ， 其 它 所 有 课程 划分 为 八 个 调 
四 历史 与 文化 、 加 语言 与 文学 、 轩 艺术 与 审 黄 、 回 环境 、 科 技 与 社会 、@@ 当 代 中 | 
发 展 、 图 数学 与 自然 科学 。 要 求 在 本 科学 习 阶段 修 满 13 学 分 ， 其 中 文化 素质 教 
1-2 学 分 ; 文化 素质 教育 核心 课程 和 新 生 研讨 课 为 限 选 ， 至 少 5 门 或 8 学 分 ， 建 
讨 课 ; 一 般 文化 素质 课程 为 任 选 。 

每 学 期 开设 的 文化 素质 教育 课程 目录 详 见 当 学 期 选课 手册 。 


3. 数学 和 自然 科学 基础 课程 7 学 分 


10421075 微 积分 B(1) 5 学 分 
30020682 建筑 数学 2 学 分 
4. 专业 相关 课程 96 学 分 
(1 学 科 基 础 课 ”44 学 分 
1) 必 烽 43 学 分 
40021321 建筑 设计 概论 1 学 分 
30021351 建筑 设计 原理 1 学 分 
30020552 外 国 古 代 建 筑 史 纲 2 学 分 
20482 中 国 古 代 建 筑 史 岗 2 学 分 
30020542 外 国 近 现 代 建 筑 史 纲 ( 英 ) 2 学 分 
30020492 空间 形体 表达 基础 2 学 分 
30020271 建筑 技术 概论 1 学 分 


30030272 工程 力学 2 学 分 


图 13 处 理 前 PDF 文档 
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5.4 ”文本 分 析 与 转 储 程序 实现 与 运行 效果 

将 获取 的 文本 信息 转化 成 XML 文件 的 几 个 关键 
的 方法 描述 如 下 : 

txtToXml(String in, String out); // 主 方法 ， 接收 文本 文件 的 路 径 
和 输出 XML 文件 的 路 径 , 完成 转化 。 

coursesToXml(List<Course> courses，String out); //txtToXml 调 
用 ,接收 XML 文件 的 路 径 , 将 课程 对 象 列表 持久 化 到 XML 文件 。 

parseOneCourse(String line); // 接 收文 本 文件 的 一 行内 容 , 返回 
一 个 Course 对 象 或 者 Null。 中 间 数 据 生成 程序 调用 Dom4j 接口 来 
实现 XML 文件 构造 。 

5.5 ”语义 数据 构建 和 测试 效果 

本 体 构造 工具 种 类 繁多 , 包括 商业 产品 、 高 校 与 
研究 机 构 的 课题 成 果 外 有 OntoEdit 、WebOnto 、 
Protégé、WebODE 等 。 本 文选 取 Protégé 作为 构建 工 
具 ,Protégé 是 斯 坦 福 大 学 开发 的 基于 Java 语言 的 本 体 
编辑 、 知 识 获 取 软 件 中 ,拥有 很 多 优秀 设计 的 插件 , 其 
扩展 性 、 友 好 性 明显 强 于 其 他 工具 , 是 当前 使 用 最 广 
泛 的 本 体 编辑 器 。 

本 体 构建 工具 搭建 完成 后 , 选取 测试 数据 进行 相 
似 度 计算 ， 如 下 为 测试 数据 描述 : 

S 大 学 下 有 计算 机 科学 与 技术 系 和 软件 工程 学 院 ,其 中 
计算 机 科学 与 技术 系 下 有 计算 机 科学 与 技术 专业 ,必修 课 
程 有 C++ 程 序 设 计 , 数据 结构 ,软件 工程 概论 ,算法 与 复杂 
性 ,选修 课程 有 海量 数据 处 理 …… 软 件 工程 学 院 下 有 软件 
工程 专业 , C++ 程 序 设计 , 数据 结构 ,软件 工程 概论 , IT 服务 
管理 ， 选 修 课程 有 中 间 件 技术 …… 

测试 结果 如 表 2 所 示 : 

表 2 相似 度 计算 结果 


距离 相似 度 
Hier Distantce 0.8000 
Attr Distance 0.1670 
Distance 0.4583 


6 ”实验 效果 及 分 析 


为 验证 自动 抽取 方法 的 有 用 性 , 组 织 
结构 信息 抽取 的 实验 。 
6.1 实验 内 容 

以 50 所 高 校 、 超 过 2 000 个 专业 的 培养 方案 文件 
为 原始 数据 , 文件 大 小 为 834MB。 

根据 文件 内 容 的 结构 分 为 两 组 ， 即 半 结 构 化 组 与 
非 结 构 化 化 组 ,在 本 研究 中 分 别 指 表格 类 型 和 松散 文 
本 类 型 的 文件 内 容 , 分 组 后 得 到 37 组 半 结 构 化 组 文件 


一 次 知识 
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和 13 组 非 结构 化 组 文件 .从 两 组 文件 中 分 别 随 机 选取 
10 所 高 校 , 每 所 随机 选取 10 个 专业 , 得 到 200 个 专业 
的 培养 方案 ， 人 工分 割 成 200 个 文件 。 由 于 文件 格式 
不 一 , 单个 文件 大 小 在 10-200K 之 间 , 文件 大 小 总 计 
23.1MB。 以 这 些 文件 为 原始 数据 ,进行 处 理 ， 得 到 课 
程 识 别 的 结果 ,再 由 两 名 实验 人 员 人 工 核对 ， 计 算 准 
确 率 和 召回 率 。 

为 方便 实验 人 员 比 对 , 将 所 得 结果 转化 为 Excel 
格式 , 结果 如 图 15 所 示 : 


A B 

1 物 联 网 工程 电子 信息 工程 电子 科学 与 技术 ( 微 电 子 学 与 固体 电子 学 ) 
2 思想 道德 修养 与 法 律 基础 思想 道德 修养 与 法 律 基础 思想 道德 修养 与 法 律 基础 
3 _ 中国 近 现代 史 纲 要 中 国 近 现 代 史 纲 要 中 国 近 现代 下 纲要 

4 马克 思 主 义 基 本 原理 马克 已 主义 基本 原理 马克 忆 主 义 基 本 原理 

5 “毛泽东 思想 和 中 国 特色 社会 主义 理论 体系 概 i 毛泽东 思想 和 中 国 特色 社会 主义 理论 体系 站 毛泽东 思想 和 中 国 符 色 社 会 主义 理论 体系 指 
6 形势 与 政策 教育 形 辑 与 政策 教育 形 辑 与 政策 教育 

7 现 浊 号 译 IA-D 至 IA-D 至 {A-D 

8 英语 口 滞 IA-D 英语 口语 A- D 英语 口语 A -D 

9 英 滞 听力 -BB 英 滞 听力 A-B 英 滞 听力 {A -B 

10 英语 读 写 译 2A - D 英语 该 写 译 2A - D 英语 读 写 译 2A - D 

11 英语 口语 2A - D 英语 口语 2A - D 英语 口语 2A - D 

位 瑞 滞 听力 2A -日 二 力 -6 于 力 2A -日 

13 枚 泽 恤 译 副 译 

14 商务 英语 商务 英语 商务 英语 

15 英美 文化 英美 文化 英美 文化 

16 影视 欣赏 影视 欣 党 影视 欣 党 

17 西方 文化 西方 文化 西方 文化 

18 英 英美 文学 简 史 

19 法 制 安全 教育 法 制 安全 教育 法 制 安全 教育 

20 管理 概论 

21 职业 生涯 规划 职业 生涯 规划 职业 生涯 规划 


图 15 实验 生成 文件 


6.2 ”评价 指标 

对 实验 结果 的 评价 采用 自然 语言 处 理 中 篆 用 的 
准确 率 (Precision)、 召回 率 (Recall) 指 标 。 准确 率 是 衡 
量 信息 检索 结果 的 质量 ， 即 查 准 率 ; 召回 率 用 来 衡 
量 信息 检索 结果 的 查 全 率 。 笔 者 定义 评价 指标 ， 如 
表 3 所 示 : 


表 3 实验 评价 指标 


名 称 缩写 含义 解释 
单 篇 准确 率 SP ”单个 文件 中 课程 识别 正确 数 /课程 识别 数 
单 篇 召回 率 SR ”单个 文件 中 课程 识别 数 /课程 总 数 
平均 准确 率 AP ”全 部 文件 中 课程 识别 正确 数 /课程 识别 数 
平均 召回 率 AR 全 部 文件 中 课程 识别 数 /课程 总 数 


准确 率 标准 差 Std.P 单 篇 准确 率 的 标准 差 
召回 率 标准 差 Std.R 单 篇 召回 率 的 标准 差 
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实验 结果 表明 , 本 系统 对 于 输入 文件 的 平均 准确 
率 较 高 , 在 95% 以 上 。 对 于 半 结 构 化 组 的 培养 方案 文 
件 , 系统 的 召回 率 较 高 , 在 99% 以 上 , 但 是 对 于 非 结 
构 化 类 型 的 文件 ， 系统 的 平均 召回 率 较 低 ,在 90% 以 
下 , 实验 中 某 些 文件 的 课程 识别 率 在 80% 左 右 , 这 主 
要 是 由 于 对 于 处 理 非 结构 化 文件 , 系统 比较 依赖 词典 
库 的 完善 度 , 对 于 词典 库 中 缺乏 的 课程 词汇 , 往往 难 
以 识别 ,例如 “程序 设计 方法 与 思想 ”课程 , 在 某 些 学 
校 名 称 是 “计算 思维 ”如 果 词 典 库 中 没有 该 词汇 , 将 
难以 判别 。 但 是 , 随 着 系统 处 理 结构 化 / 半 结 构 化 文件 
的 数量 增多 , 词典 库 内 容 会 进一步 扩充 ,对 非 结构 化 
文件 的 识别 召回 率 也 会 有 所 提高 。 


7 结 语 


本 研究 详细 分 析 了 网 络 化 创新 外 包 中 的 人 才 知 识 
结构 抽取 的 背景 , 并 设计 实现 了 人 才 知 识 结构 信息 的 
自动 抽取 系统 ,得 到 的 输出 结果 可 以 为 构建 人 才 知 识 
库 提供 支撑 。 依 赖 本 研究 成 果 ， 只 需 人 才 的 少量 基本 
言 息 即 可 迅速 获取 到 他 们 在 高 校 所 修 读 的 课程 及 其 
描述 ,并 可 依据 最 终 的 语义 数据 给 出 相似 度 的 分 析 
结果 , 在 今后 的 数据 更 新 中 ,也 不 必 再 耗费 大 量 的 人 
力 成 本 。 

本 文成 果 将 会 在 未 来 的 人 才 知 识 库 、 创 新 任务 匹 
配 的 研究 中 发 挥 作 用 , 庞大 的 专业 课程 数据 将 成 为 人 
才 知 识 库 构 建 的 强大 后 备 , 最 终 的 语义 数据 也 会 逐步 
提升 系统 课程 识别 的 召回 率 。 在 实践 中 , 知识 结构 不 
仅 仪 包含 人 才 在 高 校 接 受 教育 所 掌握 的 知识 ， 也 包含 
人 才 在 后 来 的 培训 、 工 作 之 中 所 掌握 的 技能 、 职 业 的 
专业 知识 ,这 些 知 识 采 取 什么 样 的 形式 构建 、 存 储 都 
可 以 参照 本 文 所 示 的 构建 方式 , 后续 研究 也 将 围绕 这 
些 范畴 和 特定 专业 领域 展开 。 


6.3 ”实验 分 析 


实验 结果 如 表 4 所 示 : 
表 4 实验 结果 统计 
指标 羊 结构 化 组 非 结构 化 组 
N 100 100 
AP(%) 97.96 99.46 
StdP 1.102x0.01 0.300x0.01 
AR(%) 99.51 89.39 
Std.R 0.291x0.01 5.411x0.01 
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Automatically Extracting Talents’” Knowledge Structure Online 
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Abstract: [Objective] To extract talents’ knowledge structure automatically. [Methods] We built an online knowledge 
structure extraction system based on Web information retrieval, webpage analysis, word segmentation and semantic 
Web technologies. [Results] We examined the usability of the new system. For course recognition, the overall precision 
rate was more than 95%. For semi-structured files, the recall rate was above 95%. For some non-structured files, the 
reacall rate was below 90%. [Limitations] The recall rate of course recognition was restricted by the content of the 
dictionary. [Conclusions] The proposed method meets the requirements of constructing talents’ knowledge structure 
and js a useful tool for related research. 
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